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Resumen 


Flowers-Cano, R. S., Flowers, R. J., €: Rivera-Trejo, F. (sep- 
tiembre-octubre, 2014). Evaluación de criterios de selección 
de modelos probabilísticos: validación con series de valores 
máximos simulados. Tecnología y Ciencias del Agua, 5(5), 189- 
197. 


Se realizó un estudio de Monte Carlo para determinar la 
validez del empleo de la prueba del error estándar de ajuste 
como criterio de selección en el análisis de frecuencias. 
Dicho estadístico se comparó con los estadísticos de prueba 
de Kolmogorov-Smirnov, Cramer-Von Mises y Anderson- 
Darling. Las distribuciones elegidas para el propósito de 
comparar estos estadísticos fueron la gamma, Weibull, 
Gumbel, log-normal y log-logística. Los resultados obtenidos 
recomiendan el uso de muestras con tamaño de por lo menos 
n = 50 para tener un buen desempeño de las pruebas de 
Anderson-Darling y error estándar de ajuste. El empleo de 
las pruebas de Kolmogorov-Smirnov y Cramer-Von Mises 
no es del todo recomendable en hidrología, ya que para 
obtener un desempeño aceptable se necesitan muestras más 
grandes de las que normalmente se tienen en esta disciplina. 


Palabras clave: error estándar de ajuste, Kolmogorov- 
Smirnov, Cramer-Von Mises, Anderson-Darling. 


Introducción 


El diseño de obras de control y aprovechamiento 
requiere el análisis de frecuencias de eventos 
para 
probabilidad de ocurrencia de dichos eventos. 


hidrológicos extremos estimar la 
A menudo, el periodo de retorno del evento 
de diseño de una obra hidráulica excede 
el periodo de las observaciones y deben 
hacerse extrapolaciones a partir de los valores 
registrados. Una forma de extrapolar los datos 
históricos consiste en emplear el método gráfico, 


que requiere de un analista experimentado y 
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presenta la desventaja de la subjetividad. Una 
técnica más objetiva es encontrar la distribución 
de probabilidad teórica que se ajuste mejor a 
los datos medidos y usar esta función para la 
extrapolación. Algunas de las distribuciones de 
probabilidad usadas en hidrología son normal, 
log-normal, gamma, Gumbel, Weibull, Pearson 
tipo III y log-Pearson tipo IM (Aksoy, 2000; 
Aparicio-Mijares, 2005). Un problemaimportante 
en el análisis de frecuencias es la selección de 
una distribución de probabilidad apropiada 
para los datos observados. Este problema 
no es exclusivo de la hidrología, también se 
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observa en otras áreas, como la confiabilidad 
y ciencias actuariales. Quesenberry y Kent 
(1982) desarrollaron un criterio de selección 
de distribuciones basado en estadísticos 
invariantes bajo transformaciones de escala. 
Demostraron la efectividad de su criterio a 
partir de un estudio de Monte Carlo para 
distinguir entre las distribuciones exponencial, 
gamma, Weibull y log-normal. Generalmente, 
la selección de modelos se basa en pruebas 
de bondad de ajuste, que incluyen métodos 
gráficos y estadísticos, siendo preferibles 
los métodos estadísticos por su objetividad 
(Shin, Jung, Jeong, $ Heo, 2011). Entre los 
métodos estadísticos con mayor aplicación 
en la hidrología se encuentran las pruebas 
de chi-cuadrado (c?) y del error estándar de 
ajuste (EEA) (Ganancias-Martínez, 2009). Otros 
métodos usados a menudo son los de función 
de distribución empírica (FDE), que incluyen 
las pruebas de Kolmogorov-Smirnov (KS), 
Cramer-Von Mises (CVM) y Anderson-Darling 
(AD) (p. ej. Laio, 2004; Suhaila 8z Jemain, 2007; 
Dan azumi, Shamsudin, Aris, 2010; Shin et al., 
2011; Atroosh éz Moustafa, 2012). Sin embargo, 
las pruebas estadísticas de bondad de ajuste 
tienen poco poder para rechazar distribuciones 
equivocadas (Mitosek, Strupczewski, € Singh, 
2002), por lo que en muchos casos, más de 
una distribución puede ser aceptada por 
una prueba específica (Laio, Baldasarre, é 
Montanari, 2009). En este caso, el concepto de 
criterio de selección de modelos representa 
una alternativa a las pruebas de bondad de 
ajuste. Pueden definirse diversos criterios 
de selección en función de los estadísticos de 
bondad de ajuste antes mencionados. Otros 
criterios de selección se basan en la función de 
verosimilitud, como el criterio de información 
de Akaike (CIA) y el criterio de información 
Bayesiano (CIB) (Laio et al., 2009). Balasooriya, 
Low y Wong (2005) evaluaron la efectividad 
de los criterios de Akaike, y de Quesenberry y 
Kent. Encontraron que si bien ambos criterios 
tuvieron un buen desempeño, el segundo fue 
ligeramente mejor; sin embargo, la dificultad 
computacional de este criterio hace preferible 


el empleo del CIA. Los criterios de selección 
de modelos probabilísticos han recibido poca 
atención en la literatura hidrológica. Mitosek 
et al. (2002) consideraron las distribuciones 
Weibull, gamma, Gumbel y log-normal como 
modelos alternativos para la distribución 
de caudales pico anuales, y evaluaron 
estas distribuciones usando tres índices: la 
desviación absoluta media, la media cuadrática 
y la función de verosimilitud normalizada. 
Tras realizar un estudio de Monte Carlo, 
concluyeron que la función de verosimilitud 
normalizada representaba el mejor criterio de 
selección. El Adlouni, Bobée y Ouarda (2008) 
utilizaron técnicas gráficas para seleccionar 
la clase de distribuciones que proporciona el 
mejor ajuste a un conjunto de datos. Utilizaron 
el criterio de clasificación de Werner y Upper 
(2002), quienes dividieron las distribuciones 
en: a) estables; b) con cola tipo Parteo; c) 
regularmente variantes; d) sub-exponenciales; 
e) con momentos exponenciales inexistentes. 
Estos autores propusieron el empleo de 
métodos gráficos para determinar la clase 
de la distribución y después utilizar criterios 
como el CIA, CIB o AD para seleccionar la 
distribución de mejor ajuste. Por su parte, Laio 
et al. (2009) hicieron un análisis del desempeño 
de tres criterios de selección de modelos: CIA, 
CIB y AD, aplicados para identificar el mejor 
modelo probabilístico de un ajuste de datos 
hidrológicos extremos. El desempeño de estos 
criterios se comparó usando datos sintéticos. 
No hubo un claro ganador entre los tres, pero 
se Observó que eran más efectivos cuando la 
distribución utilizada en la generación de los 
datos sintéticos era de dos parámetros y no de 
tres. Di Baldasarre, Laio y Montanari (2009) 
extendieron el análisis de Laio et al. (2009) y 
demostraron que el empleo de un criterio de 
selección de modelos mejora la estimación de 
la crecida de diseño de una obra hidráulica 
respecto al manejo de un modelo probabilístico 
fijo. En este trabajo se utilizó un procedimiento 
similar al de Laio et al. (2009). Se emplearon 
datos sintéticos de una distribución conocida 
para comparar el desempeño de diferentes 


Flowers-Cano et al., Evaluación de criterios de selección de modelos probabilísticos: validación con series de valores máximos simulados 


criterios de selección (AD, KS, CVM y del 
EEA); sin embargo, para mayor efectividad se 
emplearon solamente distribuciones de dos 
parámetros (Laio etal., 2009; Haddad é Rahman, 
2011; Markiewicz, Strupczewski, éz Kochanek, 
2010). La finalidad fue comparar el desempeño 
del EEA, recomendado por Aparicio-Mijares 
(2005), contra los otros criterios comúnmente 
utilizados en la estadística aplicada. Los 
resultados obtenidos muestran que el EEA tuvo 
un desempeño comparable al de la prueba de 
AD, y superior al de las pruebas de KS y CVM; 
además, se encontró que el empleo de estas dos 
últimas pruebas no es del todo recomendable 
en hidrología, pues para obtener desempeños 
aceptables se requieren muestras más grandes 
de las que normalmente se encuentran en esta 
disciplina. 


Materiales y métodos 
Comparación de criterios de selección 


Se realizó un análisis numérico para comparar 
los desempeños de diferentes criterios de 
selección de modelos probabilísticos. Los 
criterios considerados fueron las pruebas de 
error estándar de ajuste (EEA), Cramer-Von 
Mises (CVM), Kolmogorov-Smirnov (KS) y 
Anderson-Darling (AD). El análisis se llevó a 
cabo por medio de una serie de experimentos 
de Monte Carlo, 
siguientes pasos: a) se eligieron las siguientes 
distribuciones de probabilidad madre: Gumbel, 
Weibull, gamma, log-normal y log-logística, 
las funciones de densidad de probabilidad 
(fdp) de las primeras cuatro distribuciones se 
pueden consultar en el texto de Haan (1994), 
la de la distribución log-logística, en Dey y 
Kundu (2009); b) se generaron 80 000 muestras 
aleatorias de tamaño n de las distribuciones 


que constaron de los 


madre, los tamaños de muestra considerados 
fueron n = 30, 50, 80 y 100; c) las distribuciones 
de interés se ajustaron a los datos generados, 
los parámetros se estimaron por el método de 
máxima verosimilitud; d) para cada una de las 
distribuciones se calcularon los estadísticos 


de AD, CVM, KS y EEA; e) para cada uno 
de los criterios se seleccionó la distribución 
para la cual se obtuvo el valor más pequeño, 
si la distribución seleccionada era igual a la 
distribución madre, se consideró que el criterio 
tuvo éxito. 


Parámetros de las distribuciones 

Los parámetros de las distribuciones madre se 
muestran en el cuadro 1, dichos parámetros 
se basan en los estimados por De Dios-Lara 
(1998). 


Métodos de selección de modelos 


modelos 
empleados en este trabajo se basan en el cálculo 


Los criterios de selección de 


Cuadro 1. Parámetros de las distribuciones usadas para 
generar los datos sintéticos. a: forma; f: escala; 8: ubicación. 


Distribución Parámetros 

a B 
6.17 12.75 
Gamma 14.39 11.51 
12.42 13.56 
10.19 9.29 

a B 
2.77 106.1 
Weibull 4.03 152.8 
2.09 121.6 
25 115.5 

8 B 
142.33 22 
Gumbel 157.20 43.48 
94.48 37.04 
79.86 28.57 

9 B 
5.09 0.449 
Log-normal 4.80 0.356 
4.66 0.370 
4.50 0.311 

9 B 
4.79 0.237 
Log-logística 4.91 0.280 
4.68 0.180 
4.66 0.303 
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de los estadísticos de EEA, KS, CVM y AD. La 
forma matemática del estadístico de EEA se 
puede consultar en Raynal-Villaseñor (2013). 
Para los otros estadísticos, se puede consultar 
Suhaila y Jemain (2007). 


Estudio de sensibilidad 


Se realizó un estudio de sensibilidad para 
determinar el efecto que tiene el empleo 
de un criterio de selección en la estimación 
del cuantil X,, esto es, el valor asociado 
con un periodo de retorno T. Para dicho 
estudio se hicieron pruebas de Monte Carlo, 
estructuradas de la siguiente forma: a) se eligió 
como distribución madre una de las cinco 
distribuciones mencionadas anteriormente; 
b) se calculó el valor x, de la distribución 
madre, correspondiente al periodo de retorno 
T. Los valores de T' considerados fueron de 
10 y 100 años, el primero representa una 
interpolación y el segundo una extrapolación; 
c) se generaron 400 000 muestras de tamaño 
n de las distribuciones madre, los tamaños de 
muestra considerados fueron n = 30 y n = 50, 
y se utilizaron los parámetros mostrados en el 
cuadro 1; d) las cinco distribuciones de interés 
se ajustaron a los datos de cada muestra, 
usando el método de máxima verosimilitud; 
e) se calcularon los valores de los criterios de 
AD, CVM, KS y EEA para cada una de las cinco 
distribuciones; f) para cada uno de los criterios 
se seleccionó la distribución para la cual se 
obtuvo el valor más pequeño; g) la distribución 
seleccionada por cada criterio se utilizó 
para calcular el estimador %, de x,; h) para el 
conjunto de valores de ADx, se calculó la raíz 
del error cuadrático medio relativo (SRECM) y 
el sesgo relativo (95), empleando las siguientes 
expresiones (Markiewicz et al., 2010): 


(1) 


(2) 


donde x, es el valor “verdadero” del cuantil, 
obtenido de la distribución madre; x, es un 
estimador de x,; y E indica el valor esperado. 


Resultados 
Comparación de los criterios de selección 


Los resultados se muestran en el cuadro 2. Se 
observan los porcentajes de selección correcta 
(PSC) para cada uno de los escenarios de 
simulación que se manejaron. El PSC es el 
número de veces que el criterio de selección 
identificó correctamente la distribución madre, 
dividido entre el número total de selecciones. 
Se analizaron las cinco distribuciones, por lo 
que el PSC asignado por azar sería del 20%. Por 
lo tanto, un criterio de selección bueno estaría 
por arriba del 20%. Se observa en el cuadro 2 
que para una distribución madre y un juego de 
parámetros específicos, el PSC aumenta con 1. 
También se distingue cierta preponderancia del 
criterio de AD cuando la distribución madre es 
log-normal, gamma o Weibull; del EEA cuando 
la distribución madre es Gumbel, y de CVM 
cuando la distribución madre es log-logística. 
Esto resulta más visible en la figura 1. En general, 
AD parece ser el criterio ganador, seguido por 
el EEA, mientras que KS parece tener el menor 
poder de selección. Algo más que se puede 
apreciar en esta figura es que el PSC no sólo 
varía en función del criterio de selección y de n, 
sino también de la distribución madre. Todos 
los criterios considerados presentan un mejor 
desempeño cuando la distribución madre es 
Weibull o log-logística que cuando es gamma, 
Gumbel, o log-normal. Esto se puede notar 
mejor en la figura 2. 

Esto se debe a la dificultad de los mismos 
para discriminar entre distribuciones pare- 
cidas. Las PSC observadas dependen de las 
distribuciones que se someten a comparación. 
Si la distribución Weibull se hubiera sustituido 
por la log-gamma, los PSC observados para las 
otras distribuciones hubieran sido menores. 
Algo que se observa en el cuadro 2 y en las 
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Cuadro 2. Porcentajes de selección correcta (PSC) para diferentes distribuciones madre. 


Distribución gamma 


EEA KS CvM AD 
Parámetros |” de és E da 
30 30 | so | 80 | 100 
a=6.17 
15.00 21.90 | 23.67 | 43.00 | 46.00 
P=1275 
a =14.39 
14.50 20.60 | 32.80 | 42.70 |48.00 
P=11.51 
a = 12.42 
16.70 23.20 | 32.90 | 42.16 | 48.30 
PB =13.56 
a =10.19 
B=929 17.00 | 28.50 | 40.50 | 45.10 | 20.40 | 22.26 | 29.24 | 34.13 | 20.48 | 25.87 | 33.40 | 40.80 | 25.87 | 32.30 | 43.30 | 50.40 
Distribución Weibull 
= 207 
oa 62.00 | 70.10 | 80.90 | 82.90 | 56.10 | 64.17 | 72.43 | 77.10 | 64.10 | 69.80 | 76.82 | 81.00 | 69.30 | 75.40 | 82.40 |85.50 
a = 4.03 
78.10 80.92 | 82.30 | 77.30 | 78.30 | 88.00 | 87.20 
PB =152.8 
a =2.09 
47.20 68.10 | 72.30 | 55.30 | 62.40 | 67.70 |73.90 
P=1216 
=225 
Anos 49.40 | 60.70 | 67.60 | 76.00 | 50.55 | 61.30 | 65.80 | 70.80 | 58.34 | 65.10 | 72.16 | 73.83 | 56.80 | 68.20 | 73.80 |77.60 
Distribución Gumbel 
0 =142.33 
poaaya [7920 [8230 | 83.90 | 85.80 3520 [46.70 | 6186 | 6248 | 47.15 [56.60 | 63.74 | 69.20 | 5940 | 66.10 [71.66 [74.70 
0 =157.20 
33.87 36.26 | 36.43 | 24.88 | 34.00 | 42.20 |43.20 
P = 43.48 
0 =94.48 
12.30 10.58 | 11.80 | 9.30 | 10.10 | 11.40 15.90 
PB =37.04 
0=79.86 
A 
Distribución log-normal 
0 =5.09 
8 20 36.90 | 31.00 | 32.10 | 34.70 | 20.00 | 27.17 | 31.94 | 34.07 | 23.28 | 32.83 | 37.60 | 40.30 | 28.67 | 39.40 | 43.10 | 44.30 
0 =4.80 
31.50 25.57 | 34.06 | 23.50 | 27.10 | 31.07 |39.56 
P =0.356 
os 33.00 33.67 | 33.57 | 24.88 | 28.60 | 37.10 | 40.36 
$ = 0.370 
0 =4.50 
e=o31 [2480 [19.70 | 22.38 [23.90 [14.29 | 17.63 | 18.48 | 22.58 | 1429 [18.40 | 20.46 | 24.15 | 18.70 [21.10 [22.90 [27.60 
Distribución log-logística + 
0=4.79 a 
80037 19180 [56.50 | 68.50 | 73.50 | 57.19 [59.54 [65.53 | 66.97 | 60.56 | 62.00 | 67.10 | 69.23 | 57.50 | 58.30 | 66.40 | 68.70 2 
—= 2 
9=4.91 2 
34.90 68.33 | 65.20 | 61.11 | 63.14 | 66.50 |65.50 E 
$ = 0.280 o 
0 =4.68 Y 
22.60 64.30 | 69.70 | 52.40 | 57.60 | 61.50 |66.50 2 
B = 0.180 E 
0=4.66 =) 
a 20 (580 0 [050 ESOO E (0 [22 [500 060 [6 (ele [Sl (Es 2 
gráficas es que si el tamaño de la muestra es en cambio, es preciso poder distinguir entre > 
pequeña, los criterios de selección son similares. distribuciones que difieren considerablemente, E 
Si dos modelos hacen predicciones muy pues las predicciones realizadas con las mismas S 
parecidas, no importa cuál de los dos se escoja; podrían ser muy diferentes entre sí. 3 
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Figura 1. Gráficas del porcentaje de selección correcta (PSC) de los diferentes criterios de selección de modelos 
contra el tamaño de la muestra 1. 
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los estimadores obtenidos, usando los modelos usados en la simulación. Se observa que: 
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Figura 2. PSC obtenidos con los distintos criterios de selección para diferentes distribuciones madre. 2 
E 
E 
? 
a) La magnitud de la SRECM aumenta con b) Cuando la distribución madre es log- z 
el periodo de retorno y disminuye con el logística y para T'=10, las magnitudes de la E 
incremento del tamaño de la muestra. Esto SRECM y del OS asociadas con el criterio de £ 
era de esperarse, ya que la varianza de los EEA son significativamente mayores que > 
estimadores de x, aumenta cuando sube T, para otros criterios. E 
y disminuye cuando aumenta n (Silva et al., c) Los valores de ORECM más pequeños 5, 
di . A Z 
2011). significan que los estimadores xXx, se 3 
E 
SÓ 
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Cuadro 3. Valores de SRECM y 05 obtenidos para diferentes distribuciones madre. 


Distribución gamma 


Tamaño de | Periodo de EEA Ks CVM AD 
la muestra | retorno O9RECM 9S O9RECM 9S SRECM 9S O9RECM 9S 
30 10 0.071 -0.007 0.071 -0.009 0.071 -0.011 0.070 -0.012 
30 100 0.153 0.038 0.153 0.037 0.150 -0.033 0.115 -0.010 
50 10 0.055 -0.004 0.055 -0.004 0.055 -0.006 0.054 -0.006 
50 100 0.128 0.040 0.132 0.040 0.130 0.038 0.096 -0.001 
Distribución Weibull 
30 10 0.076 -0.004 0.086 0.007 0.078 -0.003 0.075 -0.008 
30 100 0.183 0.069 0.297 0.131 0.213 0.081 0.131 0.030 
50 10 0.058 -0.003 0.065 0.006 0.060 0.000 0.057 -0.004 
50 100 0.123 0.040 0.229 0.096 0.175 0.062 0.104 0.024 
Distribución Gumbel 
30 10 0.078 -0.013 0.079 -0.019 0.079 -0.023 0.078 -0.018 
30 100 0.147 -0.005 0.147 -0.015 0.147 -0.014 0.130 -0.051 
50 10 0.060 -0.011 0.061 -0.015 0.061 -0.016 0.060 -0.011 
50 100 0.120 0.009 0.120 -0.004 0.119 -0.003 0.102 -0.036 
Distribución log-normal 
30 10 0.092 -0.029 0.092 -0.024 0.092 -0.026 0.093 -0.027 
30 100 0.171 0.003 0.167 -0.010 0.164 -0.012 0.161 -0.066 
50 10 0.071 -0.014 0.071 -0.017 0.071 -0.017 0.072 -0.018 
50 100 0.142 0.024 0.140 0.003 0.135 0.008 0.131 -0.006 
Distribución log-logística 
30 10 0.170 0.030 0.117 -0.010 0.117 -0.012 0.117 -0.014 
30 100 0.226 -0.081 0.225 -0.096 0.227 -0.096 0.229 -0.104 
50 10 0.136 0.024 0.091 0.004 0.091 -0.006 0.091 -0.007 
50 100 0.185 -0.055 0.184 -0.076 0.186 -0.076 0.188 -0.080 


encuentran más cerca del verdadero valor 
de X,. 

d) Por lo general, para T = 10 no se observan 
grandes diferencias entre los criterios. 

e) Para T = 100, el criterio de AD tiende a 
producir las estimaciones más precisas; 
éstas tienden a ser más pequeñas que las 
de los demás criterios considerados. 


Conclusiones 


Las simulaciones muestran que los criterios 
de selección ayudan a escoger la mejor 
distribución para un análisis de frecuencias. 
Se encontró que de los criterios empleados, el 
mejor fue AD, seguido por el EEA. También 


se observó que es difícil discriminar entre dos 
distribuciones parecidas. También se encontró 
que el porcentaje de selección correcta (PSC) de 
los criterios de selección depende del tamaño 
de la muestra n y de la distribución que siguen 
los datos generados. En general, el criterio de 
AD resulta con mejores estimaciones para T 
= 100, aun cuando no escoge la distribución 
correcta. También se observó que tiende a 
producir estimaciones más pequeñas que 
los demás criterios considerados, y que en la 
mayoría de los casos subestima el valor x,. Para 
T = 10 no hay grandes diferencias entre los 
criterios. A partir de los resultados obtenidos, 
se recomiendan muestras con tamaño de por lo 
menos 1 = 50 para tener un buen desempeño 
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de las pruebas de AD y EEA. El empleo de 
las pruebas de KS y CVM no se recomienda a 
menos que se tengan muestras grandes. 
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